We study fair multi-objective reinforcement learning in which an agent must learn a policy that simultaneously achieves high reward on multiple dimensions of a vector-valued reward. Motivated by the fair resource allocation literature, we model this as an expected welfare maximization problem, for some non-linear fair welfare function of the vector of long-term cumulative rewards. One canonical example of such a function is the Nash Social Welfare, or geometric mean, the log transform of which is also known as the Proportional Fairness objective. We show that even approximately optimal optimization of the expected Nash Social Welfare is computationally intractable even in the tabular case. Nevertheless, we provide a novel adaptation of Q-learning that combines non-linear scalarized learning updates and non-stationary action selection to learn effective policies for optimizing nonlinear welfare functions. We show that our algorithm is provably convergent, and we demonstrate experimentally that our approach outperforms techniques based on linear scalarization, mixtures of optimal linear scalarizations, or stationary action selection for the Nash Social Welfare Objective.
translated by 谷歌翻译
Traditional 3D scene understanding approaches rely on labeled 3D datasets to train a model for a single task with supervision. We propose OpenScene, an alternative approach where a model predicts dense features for 3D scene points that are co-embedded with text and image pixels in CLIP feature space. This zero-shot approach enables task-agnostic training and open-vocabulary queries. For example, to perform SOTA zero-shot 3D semantic segmentation it first infers CLIP features for every 3D point and later classifies them based on similarities to embeddings of arbitrary class labels. More interestingly, it enables a suite of open-vocabulary scene understanding applications that have never been done before. For example, it allows a user to enter an arbitrary text query and then see a heat map indicating which parts of a scene match. Our approach is effective at identifying objects, materials, affordances, activities, and room types in complex 3D scenes, all using a single model trained without any labeled 3D data.
translated by 谷歌翻译
我们介绍了一项对自然语言(NL)推理的人类通知,开放域和逻辑上复杂且多样的数据集,配备了一阶逻辑(fol)注释。对开本由1,435个示例(独特的结论)组成,每个示例与487组前提之一搭配,这些场所作为规则,可用于演绎理由,以理解每个结论的有效性。前提和结论的逻辑正确性是通过其平行注释来确保的,这些注释会自动由我们的FOL推理引擎验证。除了主要的NL推理任务外,对开本中的NL-FOL对自动构成了使用FOL作为逻辑形式的新的NL-FOL翻译数据集。我们对广泛的实验系统地评估了对中型语言模型(BERT,ROBERTA)进行微调的FOL推理能力,并且在大型语言模型(GPT-NEOX,OPT,OPT,GPT-3,Codex)上促成了很少的射击。对于NL-FOL翻译,我们尝试使用GPT-3和Codex。我们的结果表明,公开可用的最强大的大语言模型之一(LLM),GPT-3 Davinci,仅比随机结果略好,而在一部分集的一部分中,该模型尤其不好,并且在预测该模型方面尤其不好。纠正虚假和未知结论的真实价值。我们的数据集和代码可在https://github.com/yale-lily/folio上找到。
translated by 谷歌翻译
导航功能同时提供路径和运动计划,可用于确保球体世界中的避免障碍和融合。在处理复杂和现实的场景时,建立对球体世界的转变至关重要,同时又具有挑战性。这项工作提出了一种新颖的转换,称为保形导航转换,以实现带有任意形状障碍的工作空间中机器人的无碰撞导航。研究了保形导航转换的特性,包括唯一性,导航属性的不变性和无角变形,这有助于在复杂环境中的机器人导航问题解决方案。基于导航功能和提出的转换,为运动和动态移动机器人的自动指导和运动控制提供了反馈控制器。此外,提出了一种迭代方法,以在多连接的工作区中构造保形导航变换,该连接工作区将多连接的问题转换为多个单一连接的问题以实现快速收敛。除了分析保证外,模拟研究还验证了在具有非平凡障碍的工作区中提出的方法的有效性。
translated by 谷歌翻译
语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
药物发现对于保护人免受疾病至关重要。基于目标的筛查是过去几十年来开发新药的最流行方法之一。该方法有效地筛选了候选药物在体外抑制靶蛋白,但由于体内所选药物的活性不足,它通常失败。需要准确的计算方法来弥合此差距。在这里,我们提出了一个新的图形多任务深度学习模型,以识别具有目标抑制性和细胞活性(matic)特性的化合物。在经过精心策划的SARS-COV-2数据集中,提出的Matic模型显示了与传统方法相比,在筛选体内有效化合物方面的优点。接下来,我们探索了模型的解释性,发现目标抑制(体外)或细胞活性(体内)任务的学习特征与分子属性相关性和原子功能专注不同。基于这些发现,我们利用了基于蒙特卡洛的增强性学习生成模型来生成具有体外和体内功效的新型多毛皮化合物,从而弥合了基于靶基于靶基于靶标的药物和基于细胞的药物发现之间的差距。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
视频中的自动烟熏车辆检测是用于传统昂贵的遥感遥控器,其中具有紫外线的紫外线设备,用于环境保护机构。但是,将车辆烟雾与后车辆或混乱道路的阴影和湿区域区分开来是一项挑战,并且由于注释数据有限,可能会更糟。在本文中,我们首先引入了一个现实世界中的大型烟熏车数据集,其中有75,000个带注释的烟熏车像图像,从而有助于对先进的深度学习模型进行有效的培训。为了启用公平算法比较,我们还构建了一个烟熏车视频数据集,其中包括163个带有细分级注释的长视频。此外,我们提出了一个新的粗到烟熏车辆检测(代码)框架,以进行有效的烟熏车辆检测。这些代码首先利用轻质的Yolo检测器以高召回率进行快速烟雾检测,然后采用烟极车匹配策略来消除非车辆烟雾,并最终使用精心设计的3D模型进一步完善结果,以进一步完善结果。空间时间空间。四个指标的广泛实验表明,我们的框架比基于手工的特征方法和最新的高级方法要优越。代码和数据集将在https://github.com/pengxj/smokyvehicle上发布。
translated by 谷歌翻译
作为智能机器人的一项基本任务,Visual Slam在过去几十年中取得了长足的进步。但是,在高度弱质地的环境下,强大的大满贯仍然非常具有挑战性。在本文中,我们提出了一个名为RWT-Slam的新型视觉大满贯系统,以解决这个问题。我们修改LOFTR网络,该网络能够在低纹理的场景下产生密集的点匹配以生成特征描述符。为了将新功能集成到流行的Orb-Slam框架中,我们开发了功能面具,以滤除不可靠的功能并采用KNN策略来增强匹配的鲁棒性。我们还对新的描述符进行了视觉词汇,以有效地循环结束。在TUM和Openloris等各种公共数据集以及我们自己的数据中测试了由此产生的RWT-SLAM。结果显示在高度弱质地的环境下表现非常有希望。
translated by 谷歌翻译
无人机(无人驾驶飞机)动态包围是一个具有巨大潜力的新兴领域。研究人员通常会从生物系统中获得灵感,要么是从宏观世界(如鱼类学校或鸟类羊群)或类似基因调节网络等微世界的灵感。但是,大多数群体控制算法都取决于集中控制,全球信息获取或相邻代理之间的通信。在这项工作中,我们提出了一种纯粹基于视觉的分布式群体控制方法,而没有任何直接通信,例如,群体的代理无人机可以生成一个陷入的模式,以完全基于其安装的全向视觉传感器包围无人机的逃脱目标。还设计了描述每种无人机行为模型的有限状态机器,以便一群无人机可以集体地搜索和捕获目标。我们在各种模拟和现实实验中验证了所提出方法的有效性和效率。
translated by 谷歌翻译